iT邦幫忙

2022 iThome 鐵人賽

DAY 8
0
AI & Data

30天AI馴獸師之生存日記系列 第 8

【Day 08】芝麻街與進擊的巨人

  • 分享至 

  • xImage
  •  

HW7 的目標是要用 BERT-based 的 model 來 train 一個 extractive question answering model,使用的 dataset 是 DRCD: 台達閱讀理解資料集 Delta Reading Comprehension Dataset。
我最後使用 macBERT-large 在 public score 上面取得 82.05% 的 accuracy。
其中比較麻煩的是關於 data processing 的部分,report 的第一題也是針對這個部分來闡述細節:
After your model predicts the probability of answer span start/end position, what rules did you apply to determine the final start/end position? (the rules you applied must be different from the sample code)

  1. 如果在 predict 的結果中,有包含 [UNK], [CLS], [SEP] 之類的特殊符號的話,就要 map 回原
    本的 paragraph 並輸出該 span。
  2. 去找在 start_index 後面的 end_index,以確保 end_index 永遠比 start_index 還要大。
  3. 加入限制: end_index - start_index <= 30

上一篇
【Day 07】解剖 Transformer
下一篇
【Day 09】惡搞BERT
系列文
30天AI馴獸師之生存日記15
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言